We study the composition style in deep image matting, a notion that characterizes a data generation flow on how to exploit limited foregrounds and random backgrounds to form a training dataset. Prior art executes this flow in a completely random manner by simply going through the foreground pool or by optionally combining two foregrounds before foreground-background composition. In this work, we first show that naive foreground combination can be problematic and therefore derive an alternative formulation to reasonably combine foregrounds. Our second contribution is an observation that matting performance can benefit from a certain occurrence frequency of combined foregrounds and their associated source foregrounds during training. Inspired by this, we introduce a novel composition style that binds the source and combined foregrounds in a definite triplet. In addition, we also find that different orders of foreground combination lead to different foreground patterns, which further inspires a quadruplet-based composition style. Results under controlled experiments on four matting baselines show that our composition styles outperform existing ones and invite consistent performance improvement on both composited and real-world datasets. Code is available at: https://github.com/coconuthust/composition_styles
translated by 谷歌翻译
Various depth estimation models are now widely used on many mobile and IoT devices for image segmentation, bokeh effect rendering, object tracking and many other mobile tasks. Thus, it is very crucial to have efficient and accurate depth estimation models that can run fast on low-power mobile chipsets. In this Mobile AI challenge, the target was to develop deep learning-based single image depth estimation solutions that can show a real-time performance on IoT platforms and smartphones. For this, the participants used a large-scale RGB-to-depth dataset that was collected with the ZED stereo camera capable to generated depth maps for objects located at up to 50 meters. The runtime of all models was evaluated on the Raspberry Pi 4 platform, where the developed solutions were able to generate VGA resolution depth maps at up to 27 FPS while achieving high fidelity results. All models developed in the challenge are also compatible with any Android or Linux-based mobile devices, their detailed description is provided in this paper.
translated by 谷歌翻译
我们将点隶属关系引入特征Upsmpling,这一概念描述了每个上采样点的隶属关系到具有语义相似性的本地解码器特征点形成的语义群集。通过重新思考点的隶属关系,我们提出了一种通用公式,用于产生上采样内核。内核不仅鼓励语义平滑度,还鼓励上采样的特征图中的边界清晰度。此类属性对于某些密集的预测任务(例如语义分割)特别有用。我们公式的关键思想是通过比较每个编码器特征点与解码器特征的空间相关局部区域之间的相似性来生成相似性感知的内核。通过这种方式,编码器特征点可以作为提示,以告知UPS采样特征点的语义集群。为了体现该配方,我们进一步实例化了轻巧的增加采样算子,称为相似性 - 吸引点隶属关系(SAPA),并研究其变体。 SAPA会在许多密集的预测任务上邀请一致的性能改进,包括语义分割,对象检测,深度估计和图像垫。代码可用:https://github.com/poppinace/sapa
translated by 谷歌翻译
神经辐射场(NERF)及其变体在代表3D场景和合成照片现实的小说视角方面取得了巨大成功。但是,它们通常基于针孔摄像头模型,并假设全焦点输入。这限制了它们的适用性,因为从现实世界中捕获的图像通常具有有限的场地(DOF)。为了减轻此问题,我们介绍了DOF-NERF,这是一种新型的神经渲染方法,可以处理浅的DOF输入并可以模拟DOF效应。特别是,它扩展了NERF,以模拟按照几何光学的原理模拟镜头的光圈。这样的物理保证允许DOF-NERF使用不同的焦点配置操作视图。 DOF-NERF受益于显式光圈建模,还可以通过调整虚拟光圈和焦点参数来直接操纵DOF效果。它是插件,可以插入基于NERF的框架中。关于合成和现实世界数据集的实验表明,DOF-NERF不仅在全焦点设置中与NERF相当,而且可以合成以浅DOF输入为条件的全焦点新型视图。还展示了DOF-nerf在DOF渲染上的有趣应用。源代码将在https://github.com/zijinwuzijin/dof-nerf上提供。
translated by 谷歌翻译
生成的对抗网络(GAN)已受过培训,成为能够创作出令人惊叹的艺术品(例如面部生成和图像样式转移)的专业艺术家。在本文中,我们专注于现实的业务方案:具有所需的移动应用程序和主题样式的可自定义图标的自动生成。我们首先引入一个主题应用图标数据集,称为Appicon,每个图标都有两个正交主题和应用标签。通过研究强大的基线样式,我们观察到由正交标签的纠缠引起的模式崩溃。为了解决这一挑战,我们提出了由有条件的发电机和双重歧视器组成的ICONGAN,具有正交扩大,并且进一步设计了对比的特征分离策略,以使两个歧视器的特征空间正常。与其他方法相比,ICONGAN在Appicon基准测试中表明了优势。进一步的分析还证明了解开应用程序和主题表示的有效性。我们的项目将在以下网址发布:https://github.com/architect-road/icongan。
translated by 谷歌翻译
时间一致性是视频深度估计的主要挑战。以前的作品基于额外的光流或相机姿势,这是耗时的。相比之下,我们获得了较少信息的一致性。由于固有的视频存在着沉重的时间冗余,因此可以从附近的框架中恢复缺失的框架。受此启发的启发,我们提出了框架屏蔽网络(FMNET),这是一种空间 - 速度变压器网络,可根据其相邻框架预测蒙版框架的深度。通过重建掩盖的时间特征,FMNET可以学习固有的框架间相关性,从而导致一致性。与先前的艺术相比,实验结果表明,我们的方法可以达到可比的空间准确性和更高的时间一致性,而没有任何其他信息。我们的工作为一致的视频深度估计提供了新的视角。
translated by 谷歌翻译
我们考虑在密集预测中进行任务无关功能的问题上采样,在该预测中,需要进行更新的操作员来促进诸如语义细分和详细信息敏感任务(例如图像矩阵)等区域敏感任务。现有的UP采样运算符通常可以在两种类型的任务中都能很好地工作,但两者兼而有之。在这项工作中,我们介绍了淡入淡出的淡出,插件和任务不合时宜的Upplaping Operator。淡出从三个设计选择中受益:i)考虑编码器和解码器功能在增加内核的过程中共同进行; ii)有效的半换档卷积操作员,可以对每个特征点如何有助于上采样内核进行粒状控制; iii)依赖解码器的门控机制,可增强细节描述。我们首先研究了淡出在玩具数据上的淡采样属性,然后在大规模的语义分割和图像垫子上对其进行评估。尤其是,淡淡的淡出通过在不同任务中持续优于最近的动态上采样操作员,从而揭示了其有效性和任务不足的特征。它还可以很好地跨越卷积和变压器架构,而计算开销很少。我们的工作还提供了有关使任务不合时宜的提升的深入见解。代码可在以下网址找到:http://lnkiy.in/fade_in
translated by 谷歌翻译
学习准确的对象探测器通常需要具有精确对象边界框的大规模培训数据。但是,标记此类数据是昂贵且耗时的。随着众包标签过程和对象的歧义可能会引起嘈杂的边界盒注释,对象探测器将遭受退化的训练数据。在这项工作中,我们旨在应对使用不准确的边界框来学习健壮对象探测器的挑战。受到以下事实的启发:本地化精度在分类精度不准确的框中显着遭受不准确的框架的影响,我们建议将分类作为用于完善定位结果的指导信号。具体而言,通过将对象视为一袋实例,我们引入了一种对象感知的多个实例学习方法(OA-MIL),其中具有对象感知的实例选择和对象感知实例扩展。前者旨在选择准确的培训实例,而不是直接使用不准确的框注释。后者的重点是生成高质量的选择实例。关于合成嘈杂数据集的广泛实验(即嘈杂的Pascal VOC和MS-Coco)和真正的嘈杂小麦头数据集证明了我们OA-MIL的有效性。代码可从https://github.com/cxliu0/oa-mil获得。
translated by 谷歌翻译
部分闭塞作用是一种现象,即相机附近的模糊物体是半透明的,导致部分外观被遮挡的背景。但是,由于现有的散景渲染方法,由于在全焦点图像中的遮挡区域缺少信息而模拟现实的部分遮挡效果是一项挑战。受到可学习的3D场景表示的启发,我们试图通过引入一种基于MPI的新型高分辨率Bokeh渲染框架来解决部分遮挡,称为MPIB。为此,我们首先介绍了如何将MPI表示形式应用于散布渲染的分析。基于此分析,我们提出了一个MPI表示模块与背景介入模块相结合,以实现高分辨率场景表示。然后,可以将此表示形式重复使用以根据控制参数呈现各种散景效应。为了训练和测试我们的模型,我们还为数据生成设计了基于射线追踪的散景生成器。对合成和现实世界图像的广泛实验验证了该框架的有效性和灵活性。
translated by 谷歌翻译
我们介绍了一个3D实例表示,称为实例内核,其中实例由一维向量表示,该向量编码3D实例的语义,位置和形状信息。我们显示了实例内核通过简单地在整个场景中扫描内核,避免对标准3D实例分段管道中的建议或启发式聚类算法的严重依赖,从而实现了简单的掩盖推理。实例内核的想法是受到2D/3D实例分割中动态卷积的最新成功的启发。但是,我们发现由于点云数据的无序和非结构化的性质,代表3D实例是非平凡的,例如,糟糕的实例定位可以显着降低实例表示。为了解决这个问题,我们构建了一个编码范式的新颖3D实例。首先,潜在的实例质心定位为候选。然后,设计了一个候选人合并方案,以同时汇总重复的候选人,并收集围绕合并的质心的背景,以形成实例内核。一旦实例内核可用,就可以通过在实例内核调节的动态卷积来重建实例掩码。整个管道是通过动态内核网络(DKNET)实例化的。结果表明,DKNET的表现优于ScannETV2和S3DIS数据集的艺术状态,并具有更好的实例本地化。可用代码:https://github.com/w1zheng/dknet。
translated by 谷歌翻译